06. 数据和二次采样

4 数据二次采样 V1

二次采样公式

P(w_i) = 1 - \sqrt{\frac{t}{f(w_i)}}

对于下面这道练习题,假设数据集如下所示:

  • 文本中包含 100 万个字词
  • “learn”在文本中出现了 700 次

如果阈值为 t = 1*10^-4(即 0.0001),丢弃“learn”的概率是多少?

SOLUTION: 62%